Modélisation, statistique, et sciences sociales

l’interprétation statistique

des données psychologiques et sociales

La statistique appliquée consiste à chercher de l’information dans des données nombreuses, obtenues par enquête, sondage, tirage au hasard ou raisonné, à l’aide de ce que l’on appelle un modèle, c’est-à-dire une « représentation mathématique d'un phénomène physique, économique, humain, etc., réalisée afin de pouvoir mieux étudier celui-ci. » (Petit Larousse).

Les développements scientifiques récents ont permis une modélisation de plus en plus complexe et une application de plus en plus facile : la statistique appliquée est ainsi devenue l'un des fondements de la démarche scientifique dans toutes les sciences appliquées, physique, chimie, médecine, gestion, mais aussi en sociologie, en psychologie et dans les sciences de l’éducation.

1. Les conséquences de la vulgarisation statistique

La facilité avec laquelle on peut procéder maintenant à une enquête, à une analyse de données, met la modélisation et la statistique à la portée d'un grand nombre d'utilisateurs qui n'ont pas nécessairement les connaissances en statistique suffisantes pour en appliquer correctement les méthodes. Paradoxalement, la complexité croissante des méthodes statistiques et l’augmentation considérable de la quantité d’informations statistiques que l’informatique permet d’obtenir ont pour conséquence d'accroître l'exigence dans la compétence scientifique et l’esprit critique des utilisateurs. On est actuellement très loin de répondre à cette exigence : il ne suffit pas d'être mathématicien, informaticien, médecin, gestionnaire, sociologue ou psychologue pour mettre en œuvre une méthode statistique et en analyser correctement les résultats. Il ne suffit pas non plus d’être statisticien : il faut posséder des compétences multiples, ou travailler en équipe pluridisciplinaire.

Une approche méthodologique correcte au plan statistique donne en général des informations précises comme on peut le vérifier en comparant les résultats des sondages préélectoraux aux résultats des élections. Mais inversement, une enquête mal menée, un questionnaire mal rédigé ou un échantillon mal choisi peuvent aboutir à des résultats statistiques complètement erronés. L’enquête effectuée auprès des enseignants et des lycéens en 1997, comme celle de 1994, n’a par exemple aucune valeur statistique, malgré le grand nombre de questionnaires recueillis : comme le dit lui-même Philippe Meirieu, responsable de la consultation de 1997, « nous ne pouvons pas prétendre à une approche scientifique » (Le casse-tête du dépouillement et de l’analyse des réponses, Sandrine Blanchard, Le Monde, 24 janvier 1998).

Ce problème de compétence se double chez l'utilisateur et dans le public d'une impression de rigueur, d'exactitude dans les résultats quand ils sont présentés de manière chiffrée, plus ou moins scientifique. Cette présentation augmente la confiance que l’on accorde aux résultats numériques fondés sur une modélisation numérique, alors que leur interprétation demande toujours une aussi grande prudence. Un résultat exprimé sous forme de pourcentage (74.9% par exemple) crée l'illusion d'une plus grande précision qu'un résultat exprimé de façon courante (une forte majorité) alors qu’ils fournissent tous deux la même information.

En outre, les pourcentages sont interprétés souvent comme une probabilité, une chance : « Des travaux récents de l’Insee montrent que pour les titulaires du baccalauréat général, au bout de 10 ans d'expérience, les chances d'occuper un emploi de cadre sont de 17% pour les hommes et de 8% pour les femmes » (Margaret Maruani, La Documentation Française, n°291, mai-juin 1999). Ce n’est pas une chance de devenir cadre : c’est une démarche individuelle, sans modèle probabiliste ni tirage au hasard. Le vocabulaire employé par Margaret Maruani et l’utilisation des pourcentages reviennent à comparer la « chance » qu’a chacun de devenir cadre avec celle qu’il a de gagner au loto, ce qui n’a évidemment aucun sens.

2. Les difficultés de l’interprétation statistique

En sociologie et psychologie, la présentation chiffrée est issue d’un codage informatique de situations et de comportements humains qui n’en donne qu’une information partielle puisque quantifiable. L’information contenue dans ces codages n’est pas du tout exhaustive, ignore le non-dit, l’intuitif, le sentiment.

On ne dénombre souvent que des déclarations : ce n’est pas du tout la même chose que le fait lui-même, surtout lorsqu’il s’agit d’études de comportements. La difficulté ne se limite pas au recueil des informations, elle concerne aussi le sens de l’information donnée. « La difficulté est que, selon les cas, l’observation “une majorité pense que X” peut être prise à sa valeur faciale et constituer une information essentielle pour le politique, alors que, dans d’autres cas, elle peut à l’extrême refléter des intérêts individuels myopes. Il est donc important d’apprendre à lire les données d’opinion en fonction des motivations des opinants. » (Raymond Boudon, Du bon usage des sondages en politique, Commentaire, n°93, printemps 2001).

On pourrait ajouter une réflexion analogue concernant ceux qui interprètent les données, certains parmi eux lisant les données d’opinion en fonction de leurs motivations personnelles. En effet, les sociologues considèrent qu’ « une relation statistique n’a généralement de sens que si elle est interprétable en termes de causalité » (R. Boudon, Encyclopaedia Universalis, article Causalité). C’est dans la recherche d’une telle interprétation que les motivations personnelles du chercheur, sociologue, psychologue ou autre, sont très présentes.

La notion de causalité n’a pas de signification statistique précise. Détectée sur un ensemble d’observations, une relation statistique ne peut concerner que cet ensemble et non chacune des observations.

Prenons un exemple précis : le coefficient de corrélation entre la taille et le poids, calculé sur 90 jeunes filles de 20 ans, est égal à 0.3991 (on trouvera ces données dans L’analyse des données mode d’emploi, T. Foucart, Presses universitaires de Rennes, 1997). L’analyse statistique montre l’existence d’une relation linéaire entre les deux variables, les jeunes filles ayant généralement une taille et un poids simultanément supérieurs à la moyenne, ou simultanément inférieurs. Mais :

· cette relation n’est pas vérifiée par environ 35% des observations ;

· rien ne permet d’affirmer que cette relation est due, dans les 65% d’observations restantes, à une même cause.

La causalité ne peut donc s’interpréter que d’une façon collective, et interpréter une relation statistique en terme de causalité signifie précisément : « c’est parce qu’un groupe possède majoritairement telle propriété qu’il possède majoritairement telle autre ». Mais cela n’a pas de rapport avec une causalité individuelle bien difficile à détecter statistiquement.

D’ailleurs, cela n’a pas de rapport non plus avec une relation causale concernant des sous-groupes : il est très possible qu’une relation significative entre deux variables existant sur une population d’individus disparaisse ou même soit inversée lorsqu’on observe un sous-groupe de cette population.

Inversement, une relation de causalité peut se traduire par un coefficient de corrélation nul ou même de signe inverse : le trafic annuel routier et le nombre annuel d’accidents sur les routes ont ainsi un coefficient de corrélation de –0.98, alors qu’évidemment l’augmentation du nombre de véhicules sur les routes devrait provoquer plus d’accidents : c’est la simultanéité de la décroissance du nombre d’accidents, due à des mesures de prévention routières, à l’amélioration du réseau routier …, et de l’augmentation du trafic due au développement économique qui explique cette valeur.

En outre, la causalité ne peut être que relative, de la même façon qu’un accident de la route est dû plutôt à un enchaînement de circonstances qu’à une cause unique. Le conducteur allait trop vite, il était fatigué, il y avait un virage, un camion roulait à gauche. Si nous supprimons une seule de ces conditions, il n’y aurait pas eu d’accident : il n’y a pas une seule cause, mais plusieurs.

La causalité demande donc une description de la réalité à laquelle on se limite. Les interprétations d’une relation statistique ne sont pas des vérités objectives en ce sens que deux personnes peuvent en proposer des interprétations différentes puisqu’elles l’interprètent nécessairement dans un contexte différent, ne serait-ce qu’à cause de leurs personnalités différentes.

3. L’hypothèse toutes choses égales par ailleurs

Pour isoler un facteur parmi plusieurs et en examiner l’importance dans la relation entre deux phénomènes, on est amené à contrôler la réalité au sein de laquelle on effectue les observations : on raisonne alors « toutes choses égales par ailleurs ». Par exemple, pour comparer les salaires entre les hommes et les femmes, on compare les salaires de personnes qui ne diffèrent que par le sexe parmi les facteurs explicatifs de la rémunération du travail : « Toutes choses égales par ailleurs, c'est-à-dire à niveaux de formation, d'expérience, de catégorie socioprofessionnelle et d'âge équivalents, il reste un écart de 12% [N.B. de salaire au bénéfice des hommes].» (Margaret Maruani, op. cité).

La relation statistique semble claire : les femmes gagnent moins que les hommes « toutes choses égales par ailleurs ». Dès lors, certains sociologues interprètent la relation statistique comme une relation causale et affirment que la société dévalue le travail des femmes parce que ce sont des femmes.

Cette démarche est subjective : on choisit pour différencier les gens un critère particulier – le sexe –, en le considérant de facto comme facteur explicatif, mais on aurait pu tout autant choisir la race, la religion, l’âge, ….Des analyses suivant ces critères auraient très vraisemblablement abouti à des conclusions analogues, ou à des conclusions inverses dangereuses (comme dans l’ouvrage The Bell Curve de C. Murray et R. Herrnstein qui concluent à une échelle raciale en comparant les blancs, les jaunes et les noirs aux états-unis). En effet, l’argument se retourne : le fait que les femmes soient moins bien rémunérées ne montre-t-il pas que le travail fourni n’est pas le même, puisque la loi impose l’égalité entre hommes et femmes ?

On peut contester cette condition « toutes choses égales par ailleurs », en particulier le choix des facteurs explicatifs qui doivent être complets et sans redondance : c’est une difficulté bien connue du choix des variables explicatives dans le modèle linéaire multiple.

Dans d'autres enquêtes, c'est effectivement cette condition qui est remise en cause, éventuellement par les mêmes sociologues. Ainsi, le fait que les filles travaillent mieux que les garçons au collège et au lycée est expliquée par l'éducation différente qui leur est donnée : on ne déduit pas de l’inégalité des résultats que le système éducatif est injuste vis-à-vis des garçons. Mais la différence reconnue d'éducation entre les garçons et les filles n'est pas considérée comme facteur explicatif du travail et n'est donc pas incluse dans l'hypothèse « toutes choses égales par ailleurs » émise à propos de l'inégalité des salaires hommes-femmes.

Dans le cas de données temporelles, cette hypothèse est particulièrement contraignante : les conditions dans lesquelles les observations d’une série évolue sont soumises elles-mêmes à des évolutions, et ce sont ces évolutions qui expliquent celles de la série étudiée. L’hypothèse « toutes choses égales par ailleurs » consiste dans ce cas à supposer que ces évolutions restent identiques. On supposera donc par exemple pour construire un modèle de prévision économique fondé sur l’analyse du passé non pas que le taux d’inflation est constant, mais que son évolution reste identique, ce qui est une approximation grossière puisque cette évolution n’a pas été régulière dans le passé.

L’expérience dans le traitement des données montre que plus on tient compte de facteurs dans cette condition : âge, diplôme, secteur d’activité, localisation, entreprise… , plus le nombre de personnes comparables diminue, et plus il est difficile d’en tirer des conclusions. En réalité, la condition « toutes choses égales par ailleurs » ne peut jamais être totalement réalisée : dans le cas de la comparaison des salaires hommes-femmes, la différence sexuelle des conjoints est à l’évidence impossible à supprimer. C’est une hypothèse abstraite, vérifiée approximativement, dont les conséquences ne peuvent être des vérités scientifiques, mais seulement des suppositions émises inévitablement en fonction des choix et donc de la personnalité de leurs auteurs.

4. L’analyse des graphiques

Les graphiques sont aussi fréquemment utilisés pour mettre en évidence une relation entre deux séries de données.

Le graphique ci-dessous donne l’évolution du nombre de tués sur les routes françaises et les mesures de sécurité routières prises au cours de la période étudiée (revue Automoto, août 99).

Une interprétation superficielle laisse croire que ce graphique prouve que le nombre de tués a diminué grâce aux mesures prises. Mais c’est faux : ce n’est pas une preuve. On aurait pu tout aussi bien indiquer les résultats des élections australiennes à la place des mesures de sécurité et (ou) le taux mensuel d’inflation à la place du nombre de tués. On constaterait alors la coïncidence des évolutions sans que l’on puisse expliquer l’une par l’autre.

Pour prouver la relation de causalité entre la diminution du nombre de morts et une mesure de prévention routière, il faudrait vérifier l’impact de cette dernière sur les accidents passés : c'est en examinant les circonstances dans lesquelles ils se sont produits que l'on peut évaluer l'efficacité de la mesure prise.

On peut donner un autre exemple de ce type de raisonnement erroné : une société publie dans une revue financière un graphique montrant la hausse du cours d'un fonds financier international de 1935 à nos jours, en indiquant comme précédemment pour un certain nombre de dates des événements caractéristiques de la période : il s'agit ici d'événements politiques tels que les guerres de 39-45, de Corée, d'Indochine, d'Algérie, du Vietnam … allant à l'évidence à l'encontre du développement économique.

L'objectif est visiblement de montrer que la gestion du fonds a permis une croissance quasi ininterrompue de la valeur financière de la part malgré tous ces événements. Mais que se serait-il passé sans tous ces événements ? La démarche correcte est ici aussi de montrer que les choix d'investissement, à la suite de chaque événement, ont été effectués de façon judicieuse.

L’exploitation à des fins publicitaires de ce dernier graphique consiste finalement à inverser le raisonnement par rapport au précédent, l’expression grâce à étant changée par malgré. Ces deux exemples contradictoires dans la démarche prouvent bien que les graphiques sont présentés pour convaincre et non pour démontrer, et qu’il faut mener une réflexion critique sur la façon dont ils sont construits avant d’admettre ce qu’ils prétendent prouver.

5. Les limites de la modélisation

Pour représenter correctement un phénomène à l’aide de formules mathématiques, qu’il concerne la réalité physique, sociale ou psychologique, on est amené à effectuer un certain nombre d’hypothèses.

Voici par exemple un modèle pour caractériser l’intelligence (Encyclopaedia Universalis, article Analyse factorielle, de Yela Mariano) :

« (1) j = f(g,s)

(2) r_gs = r_sj _sk = 0

(3) z_j = a_jg + b_js

Ces égalités signifient : qu’une activité cognitive quelconque j est fonction d’un facteur général, g , commun à toutes les activités, et d’un facteur spécifique , s , lequel n’est présent que dans cette activité (1); que tous les facteurs sont statistiquement indépendants, c’est-à-dire que leurs corrélations sont nulles (2); que la mesure z_j d’un comportement j peut être écrite en première approximation comme une fonction linéaire de g et de s , c’est-à-dire qu’elle est composée d’une partie due au facteur g , représentée par le coefficient factoriel de j en g , a_jg, augmentée d’une partie due au facteur spécifique s , représentée par le coefficient factoriel de j en s , b_js (3). »

Ce modèle est la formalisation mathématique de la démarche explicative des activités cognitives imaginée par Spearman. Il est à l’origine de l’analyse unifactorielle, parce qu’il n’envisage qu’un facteur g, généralisée par la suite en analyse multifactorielle (ou simplement factorielle) qui prend en compte plusieurs facteurs généraux éventuels.

On ne connaît pas a priori le facteur g ni les facteurs spécifiques s, et l’objectif de l’analyse est de les mettre en évidence à l’aide d’expériences soigneusement choisies effectuées sur un certain nombre de personnes. Il s’agit donc de valider la structure de l’intelligence imaginée par Spearman.

Il y a trois points fondamentaux à respecter pour que l’expérimentation possède un caractère scientifique :

· les activités cognitives choisies doivent être suffisamment caractéristiques des facteurs, dont l’ensemble représente ce que l’on peut appeler l’intelligence : cela peut être des tests de mémoire, de compréhension, d’invention ;

· les personnes soumises à ces tests sont tirées au hasard dans la population concernée : on dispose ainsi des outils de la statistique inférentielle qui permettent d’évaluer la part du hasard dans les résultats (intervalles de confiance, tests statistiques) ;

· pour vérifier le modèle estimé, on contrôle les hypothèses initiales, si possible sur un échantillon constitué d’autres personnes soumises aux mêmes tests et tirées au hasard dans la même population.

Les deux premiers points sont relativement faciles à respecter, mais la vérification complète du modèle est impossible : la statistique ne permet jamais de vérifier qu’une hypothèse est vraie, seulement qu’elle est vraisemblable. Accepter la nullité d’un coefficient de corrélation théorique signifie simplement que les observations effectuées ne sont pas en contradiction avec cette hypothèse : le test contrôle le risque de première espèce, mais pas le risque de seconde espèce. En outre, la nullité d’un coefficient de corrélation n’implique l’indépendance des variables que si les lois mises en jeu sont gaussiennes, ce qui n’est jamais établi avec certitude. La validation du modèle ne consiste finalement qu’à montrer qu’il n’est pas intrinsèquement contradictoire.

Imaginons maintenant que le modèle de Spearman fasse référence à un facteur général g et quatre facteurs spécifiques s. Il faut donc supposer l’indépendance de cinq facteurs deux à deux, ce qui revient à effectuer dix hypothèses d’indépendance. En accordant un degré de confiance de 90% à chacune d’entre elles, on peut calculer le degré de confiance de l’ensemble, qui est de l’ordre de 35% (0.9¹⁰).

Tout cela incite à la prudence lorsque l’on considère le modèle satisfaisant dans son ensemble, et montre l’importance d’une justification théorique des hypothèses, que l’on peut donner parfois dans les sciences exactes, au lieu d’une simple vérification a posteriori, seule procédure possible dans les sciences sociales.

6. L’analyse des donnees multidimensionnelles

L’analyse des données multidimensionnelles peut apparaître comme une solution aux problèmes posés par l’interprétation de données simples. Elle consiste à prendre en compte un grand nombre de facteurs explicatifs de la situation observée.

La complexité de ces méthodes les rend inutilisables par ceux qui ne les ont pas étudiées de façon approfondie. Les erreurs dans le choix des méthodes et l’interprétation des résultats, parfois dans les programmes informatiques sont nombreuses sans que l’utilisateur manquant de connaissances techniques puisse s’en rendre compte.

Ces méthodes complexes font appel à deux types de démarches : l’analyse factorielle et la classification. Dans les deux cas, on définit une distance entre deux individus statistiques que l’analyse factorielle décrit par une représentation linéaire tandis que la classification utilise un algorithme pour représenter les données généralement sous la forme d’une arborescence analogue à l’arboresence de la classification des espèces.

En analyse factorielle, on dispose finalement de représentations graphiques approximatives constituées de « nuages de points » : l’interprétation de ces représentations est la difficulté principale de ce genre de méthodes, et il peut arriver que deux équipes constituées d’experts compétents proposent des interprétations différentes des mêmes données. L’interprétation reste dépendante de facteurs personnels.

La classification aboutit à des représentations graphiques dont l’interprétation est bien moins dépendante de l’utilisateur. Mais elles restent liées au choix de la distance, comme en analyse factorielle, et de l’algorithme utilisé pour classer les données. Dans certains cas, deux individus classés à proximité l’un de l’autre par un algorithme seront opposés par un autre.

On notera toutefois qu’une propriété souvent rencontrée dans les analyses de données sociales est la grande diversité des individus : en fait, l’individu moyen n’existe pas, ou, ce qui est équivalent, chacun se distingue des autres d’une façon ou d’une autre. Cela se traduit sur les graphiques obtenus par analyse factorielle de la façon suivante : les points situés à proximité de l’origine des axes ne sont pas représentatifs des unités statistiques dont ils sont les projections. C’est la négation de ce que l’on appelle la loi multinormale, sur laquelle sont fondées la plupart des méthodes de statistiques mathématiques, et dont la densité est maximale au point moyen.

Ces méthodes aboutissent en fait à un questionnement sur les données auquel seul un spécialiste de ces données peut répondre. On retrouve les mêmes limites que précédemment, avec un questionnement plus pointu : plus la méthode statistique est complexe, plus le spécialiste des données doit être compétent. C’est ce que nous écrivions au début de ce texte : la complexité des méthodes statistiques a pour conséquence d'accroître l'exigence dans la compétence scientifique et l’esprit critique des utilisateurs.

Conclusion

La statistique appliquée ne donne qu’une image approximative de la réalité qui nous entoure et qui est beaucoup trop complexe pour être contenue dans une liste de nombres aussi grande soit-elle. La modélisation n’est qu’un outil supplémentaire d’observation, et ne peut représenter un phénomène dans sa globalité.

L’analyse des résultats doit être menée avec un esprit critique attentif, une compétence certaine dans le champ scientifique étudié et une honnêteté intellectuelle incontestable.

C’est l’explication scientifique des coïncidences mises en évidence qui doit permettre de prendre des décisions politiques et sociales, et non la coïncidence elle-même qui ne donne pas nécessairement sens. Nous avons le sentiment que cette démarche est très souvent oubliée à l’heure actuelle dans l’analyse des données sociales et psychologiques.

(d’après des articles publiés dans la revue Mathématiques et Sciences Humaines, n°153 et 154, 2001 et 2002).